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Алгоритм определения высоты музыкального 
звука на основе подавления ложных пиков 

в спектре, построенном для темперированной 
музыкальной шкалы, и его практическое 
применение на примере программы 
музыкального секвенсора 


Статья посвящена описанию алгоритма определения частоты основного тона музыкального звука, 
предполагающего подавление ложных пиков в спектре, построенном для темперированной музыкальной 
шкалы. Данный алгоритм был реализован в программе музыкального секвенсора с функцией распознавания 
звукового потока в реальном масштабе времени, описание которого также приводится в данной статье. 


Введение 


В области цифровой обработки звука задача определения частоты основного 
тона является довольно важной, а полученные при её решении результаты находят своё 
применение в задачах идентификации диктора, детектирования и кодирования речи, 
распознавания музыки. Актуальность данного направления обусловливается спросом на 
программное обеспечение (ПО) по распознаванию и цифровой обработке звуковых дан- 
ных. Среди прочих, интерес к такому ПО проявляется и со стороны звукозаписывающих 
студий, которые занимаются микшированием музыкального материала, восстановлением 
звуковых фонограмм [1]. Так, в рамках задачи реставрации сведения о частоте основ- 
ного тона и длительности звукового объекта позволяют: 

1) классифицировать компоненты спектра не только как полезные, но и как 
относящиеся к конкретному звуковому объекту; 

2) на основе априорных знаний или эвристических моделей синтезировать утра- 
ченные компоненты (обертоны) звуковых объектов и, при необходимости, управлять 
соотношением параметров (амплитуд, фаз). 

Технологии определения частоты основного тона находят свое применение и 
в «интеллектуальных» караоке-системах, особенностью которых является возможность 
расчета оценки качества исполнения песни пользователем. 

Целью данной статьи является описание алгоритма определения частоты 
основного тона, основанного на подавлении ложных пиков за счёт использования 
сведений об особенностях области применения, а также описание архитектуры программ- 
ного музыкального секвенсора, использующего разработанный алгоритм для заполнения 
одноголосных партий в реальном масштабе времени на основе записываемого зву- 
кового сигнала. 
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Определение частоты основного тона музыкального звука 


В [2] рассматриваются различные подходы к определению частоты основного 
тона, в том числе и подход, предусматривающий анализ произведений гармоник с крат- 
ными частотами в спектре. 

Основным источником ошибок при определении частоты основного тона звука 
по его спектру служат пики, получаемые на частотах, кратных искомой. Зачастую эти 
«кратные пики» по мощности превышают искомый, что и приводит в результате к 
ошибке. На рис. 1 изображен спектр музыкального звука с частотой 260 На (нота «До» 
первой октавы). Правильному значению частоты основного тона соответствует первый 
слева значимый пик, однако при поиске максимального значения будет выбран второй 
значимый пик, являющийся «кратным». 


Рисунок 1 — Спектр музыкального звука с частотой 260 Ни 


Обычно для получения спектра А используют преобразование Фурье. Следует 
отметить, что в этом случае полученный набор коэффициентов определяет распре- 
деление плотности спектральной энергии по полосам одинаковой ширины \, : 


где /, - частота дискретизации сигнала; 
№ - размер окна анализа. 


В рамках предложенного в [2] подхода предполагается вычисление величин Р, 


представляющих собой логарифмированное произведение мощностей кратных пиков: 
№/(21) 


ВР = | А[К-1 


Анализируя Р вместо А, можно в значительной степени уменьшить влияние 
кратных пиков на результат. Этот подход послужил основой ДлЯ алгоритма, 
описываемого в данной статье. 

В современной музыке для описания звукоряда используется темперированная 
музыкальная шкала, центральную частоту 1-ГО звука которой можно определить по 


формуле (1) [3]: 
ф=Х.2“”?, (1) 
где /› — частота камертона (нота Ля первой октавы — 440Гц); 


1— количество полутонов в интервале от искомого звука до Хо, 
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К коэффициент, зависящий от взаимного расположения звуков: 
—1, если а 


К Е звука 
1, иначе. 
Количество полутонов в интервале, на который отстоит звук с частотой Г от 


ноты «Ля» первой октавы, определяется по формуле (2): 


(2) 


Если исходить из того, что границы между частотными полосами, соответствую- 
щими соседним звукам, лежат точно посередине между центральными частотами этих 
звуков, то ширину ЛД ГД, м; Полосы частот, отвечающих 1-му звуку в рамках темперирован- 


ной музыкальной шкалы, можно вычислить по формуле (3): 
др Ла) +) Лала 
м 2 2 2 


Очевидно, что для разных значений { Д/„, будет разной. Получается, что хотя 


(3) 


анализ спектра Фурье с его полосами одинаковой ширины и может дать достаточно 
точные результаты для музыкальных звуков, гораздо более предпочтительной является 
работа со спектром, распределение ширины и центральных частот полос которого 
соответствует темперированной музыкальной шкале. Значение каждого элемента Ат ] 
такого спектра можно получить по формуле (4): 

(л+Лы) 


Ат} = У.А (4) 


Рисунок 2 — Спектр Ат музыкального звука с частотой 260 Ни 


Между элементами спектра Ат устанавливаются те же отношения, что и между 
музыкальными звуками. В темперированной музыкальной шкале частоты звуков, 
отстоящих на 12 полутонов (одну октаву), отличаются ровно в 2 раза. 

Как показывают проведенные исследования, кратные пики могут проявляться на 
расстоянии до 3-х октав от истинного значения частоты основного тона звука. Использо- 
вание умножения кратных пиков для усиления искомого значения частоты основного 
тона несет опасность получения нулевого значения в случае, если один из сомножи- 
телей нулевой. Поэтому более перспективным является не усиление мощности искомой 
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частоты, а гашение мощности кратного пика. Таким образом, в дальнейшем будем рас- 
сматривать следующую величину Д (4) в качестве показателя для определения частоты 
основного тона музыкального звука: 


Р- = >. лтф-12 в (5) 


На рис. 3 изображен график показателя О для ситуации, соответствующих 
рис. 1и2. 


Рисунок 3 — Показатель О для музыкального звука с частотой 260 Н?2. 


Таким образом, процедуру определения значения квазипериода на окне сигнала 
можно организовать следующим образом: 

Шаг 1. Вычисление спектра Фурье А. 

Шаг 2. Вычисление по (4) спектра Ат, ширина и центральные частоты полос 
которого соответствуют темперированной музыкальной шкале. 

Шаг 3. Вычисление по (5) показателя 2. 

Шаг 4. Определение индекса 1 максимального значения показателя О: 


1= а78 тах О] 
и. 


Шаг 5. Определение по (1) центральной частоты 1-й полосы. Данная частота 
и будет соответствовать частоте основного тона звука на анализируемом окне. 

Чтобы построить мелодический контур (определить последовательность квази- 
периодов) сигнала данный алгоритм можно применять для каждого последовательно 
выбранного окна. Как показали проведенные исследования, для музыкальных звуков 
оптимальным является окно анализа размерностью 2048 отсчётов при частоте дискре- 
тизации 22050 Н7. Полученный таким образом мелодический контур в задачах обработки 
записей музыкальных произведений может использоваться в том числе и для опреде- 
ления длительности тех или иных музыкальных звуков, причем в данном случае важ- 
ным является определение моментов начала и окончания звучания конкретного звука. 
Поэтому для получения более точных оценок изменения мелодического контура с те- 
чением времени необходимо использовать перекрывающиеся окна. В большинстве 
случаев достаточно половинного перекрытия, однако в зависимости от задачи степень 
перекрытия окон можно увеличить. 

Предложенный алгоритм обладает рядом преимуществ: 

1) сравнительно низкая вычислительная сложность, что обеспечивает возможность 
программной реализации алгоритма для работы в реальном масштабе времени; 

2) расчет результатов распознавания производится в единицах стандартизирован- 
ного музыкального строя, что позволяет эффективно использовать данный алгоритм 
в программных продуктах, ориентированных на работу с музыкой. 
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Как показано в [4], точность получаемых результатов определения квазипериода 
основного тона музыкального звука можно повысить за счёт особой апостериорной 
обработки мелодического контура, хотя такая обработка и сделает невозможной работу 
алгоритма в реальном масштабе времени. 


Музыкальный секвенсор с возможностью определения 
частоты основного тона записываемого звука 


Пользовательский интерфейс программы 


Разработанный алгоритм нашел свое практическое применение при разработке 
программного музыкального секвенсора. 

Основной задачей любого (программного или аппаратного) секвенсора является 
работа с музыкальными партиями в рамках стандарта МПТ. На рис. 4 представлено 
главное окно программы с загруженным МП]-файлом. 


Е маимпдом = | © 6 


Файл Действия Помощь 


ь) { ы е р Нота: МОМЕ 00:00:00 Темп: |65,00 = Сетка: |4 - 


Новый Открыть Сохранить Запись Играть Стоп 


= 


49 5йпд Еп5Е у 


Треки 


зпает2 |0 5 
© ас д’ рапо 1 “0 Е 1 Асоу$Нс бгё * 
ас опрапо2. | |0 5 


1 Асоизе бгё у 


Устройства 


Запись: Удтате! дифю у 


МОГ: Программный синтезатор звуковой "я 


Рисунок 4 — Главное окно музыкального секвенсора. 


По объему функциональных возможностей разработанный секвенсор можно от- 
нести к классу средних. 
Программа предоставляет следующие возможности: 
1) загрузка/сохранение МШ]-файлов с поддержкой всех типов МШ]-сообщений; 
2) графическое отображение содержимого МШ]-файла в потрековом режиме; 
3) управление треками: 
— добавление/удаление; 
— смена канала; 
— смена инструмента; 
— сольный режим. 
4) изменение темпа воспроизведения; 
5) воспроизведение партий: общий и сольный режим; 
6) редактирование треков; 
7) распознавание частоты основного тона, поступающего с устройства захвата; 
8) выбор устройств захвата и воспроизведения. 
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В левой части окна расположен менеджер треков, который дает пользователю 
доступ к управлению треками. Под менеджером треков находятся списки устройств 
захвата звука и воспроизведения МШ]-мелодий. 

Большую часть окна занимает пианоролл — инструмент для графического 
отображения и редактирования МШ][-треков. Пианоролл оснащен следующими воз- 
можностями: 

1) графическое отображение и редактирование МШ]-событий событий начала 
и окончания звучания ноты в виде прямоугольников на временной оси; 

2) масштабирование области вывода; 

3) изменение разрядности сетки; 

4) выделение элементов; 

5) одиночное и групповое перемещение/удаление элементов; 

6) изменение длительности нот. 

Панель инструментов содержит в себе весь требуемый набор действий: создать 
новый МШ|-файл, открыть, сохранить, старт захвата данных с микрофона с последую- 
щим определением частоты основного тона, остановка захвата/воспроизведения (в за- 
висимости от текущей операции). Панель инструментов также оснащена дополнитель- 
ными информационными виджетами для отображения распознанной ноты, времени 
воспроизведения/записи, элементами управления темпом мелодии и размерностью сет- 
ки пианоролла. 


Объектная модель секвенсора 


Секвенсор разработан с использованием кроссплатформенной библиотеки ОТ 4.х [5], 
которая распространяется под лицензией ГОРГ. Базовым языком для ОТ является С++. 

В процессе разработки программы авторы придерживались объектно-ориенти- 
рованного стиля программирования. На рис. 5 приведена диаграмма основных классов. 

Класс Мат\У/ш9до\ реализует взаимодействие всех программных модулей между 
собой: открытие/сохранение, создание новых МП]-файлов, отображение/редакти- 
рование МШ]-сообщений нот, запись, воспроизведение, определение частоты основного 
тона, управление треками. 


*«_ Мат\Мтаом —_* 


ое ° 
| 
_  ОРаповон — _ @Зоипагесог4ег _ ОМаРвуг `жЖ—<  Масоматг ж* 
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—  Мабее — ю ы ЗоцпаВиНег ие — `ОТопеВесодитег с Мезенайзег_$МЕ —ж 
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— — — - — — ' —= 
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Рисунок 5 — Диаграмма классов музыкального секвенсора 
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ОР1апоКо| — класс, реализующий графический редактор партий. Для хранения 
партий используется вспомогательный класс М!41Зепе (массив структур типа Миа Мое). 

ОЗоцпаКесогаег реализует процесс захвата данных с аудиоустройства посред- 
ством библиотеки ВАЗ$ [6]. На уровне событий производится отправка звуковых буфе- 
ров в модуль распознавания. 

ОТопевесовттег — класс, в котором содержится реализация процесса определения 
частоты основного тона в отдельном потоке с помощью ОТК\У/о{ктеТВгеаа, который 
берет на себя роль вычислителя. Фактически разработанный алгоритм определения 
частоты основного тона реализован в ОТК \!огктеТИгеа4. 

Класс Ма Сощашег предназначен для хранения содержимого загружаемых и сох- 
раняемых МП]-файлов. 

Загрузка и сохранение МШ]-файлов реализована в классе М141Зена|тег ЗМЕ. 

Классы М1ЗепаПтег ЗМЕ и М1АСощашег реализованы в соответствии с ранее 
разработанной архитектурой компьютерной системы работы со звуком [7]. 

Класс ОМА!Рауег реализует процесс взаимодействия с МШГ-устройствами (выбор 
устройства, воспроизведение). 


Пример работы модуля определения частоты основного тона 


Особенностью разработанного секвенсора является возможность определения 
частоты основного тона. Определение может производиться с любого устройства захвата 
аудиоданных: микрофон, линейный вход, системный микшер, аналоговый или програм- 
мный синтезатор и т. п. Возможность выбора устройства записи предоставляется интер- 
фейсом программы. По нажатию кнопки «Запись» будет начат захват аудиоданных, па- 
раллельно с которым будет выполняться определение частоты основного тона. 

На рисунке 6 приведен фрагмент аудиосигнала, который будет воспроизведен 
при помощи МШГ-синтезатора. 

На рис. 7 приведен результат распознавания. 


Рисунок 6 — Исходная последовательность звуков 
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Рисунок 7 — Распознанная последовательность звуков 


Несмотря на наличие ошибок распознавания, результат является достаточно прав- 
доподобным. Продолжительное тестирование распознавателя показало, что в основном, 
ошибки заключаются в сдвиге правильного результата на одну или более октав вверх. 


Выводы 


В данной работе был изложен алгоритм определения частоты основного тона 
с использованием музыкальной шкалы на основе метода подавления ложных пиков в 
спектре входного сигнала. Данный алгоритм применен в разработанном программном 
музыкальном секвенсоре. Небольшая вычислительная сложность позволила реализовать 
работу алгоритма в режиме реального времени. Отмечен недостаток: наличие 
мелких вкраплений (отклонений на одну или несколько октав). Существуют методы 
для решения данной проблемы, но, к сожалению, они являются непригодными для 
работы в реальном времени. 

В работе также изложена архитектура разработанного секвенсора. В ней 
нашли продолжение элементы предложенной ранее распределенной архитектуры 
компьютерной системы для работы со звуком. Это позволит без затруднений 
использовать существующие результаты в дальнейших работах. 
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Жук О.В., Панфллов С.С. 

Алгоритм визначення висоти музичного звуку на основ! зниження равня хибних шк в спектрё, 
побудованому для темперованот музично! шкали, та його практичне застосування на приклад! 
програми музичного секвенсора 

Статтю присвячено опису алгоритму визначення основного тону музичного звуку, що передбачае зниження 
равня хибних шюв в спектру, побудованому для темперовано! музично! шкали. Даний алгоритм був 
реализований в програм! музичного секвенсора з функщею розшзнавання звукового потоку в реаль- 
ному масштаб! часу, опис якого також наведено в данйй статтт. 


Ярик А., Рап Шоу 5. 

Ап Аюогит Гог Рисп ЕхйгасНоп Оше Бишршо 01 Еабе РеаК$ ш Едиа!-Тешрегатеп-Вазеа 
бресёга апа #'5 Етроутеп ш Фе Мизса! Зедиепсег АррИсайоп 

ТБе агасе 15 деуое4 10 Чезсирноп оЁ ап а1воп ит г рисВ ехфасйоп, \БлсЬ парНез Читрше ог 15е 
реаК$ ш едиа|-{етрегатепБазе4 зресёга. Тве а]гогита \уаз етроуе эт плизса] зедиепсег аррИсайоп \ИВ 
Гапсйоп Рог геа]! Чите гесоп оп оЁ зоип4 зеат. ТБе аррИсайоп зитас@ге 1$ а15о0 Чезсге4 т 1$ агасе 
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